ZABRINJAVAJUĆE SPOSOBNOSTI
Anthropic: Naš najnoviji UI model premoćan je za javno objavljivanje, uspio je "pobjeći" i sam napasti

Anthropic je objavio da njihov sljedeći model umjetne inteligencije nije primjeren za avnost jer je previše moćan. Zbog toga model Claude Mythos neće biti javno objavljen, navode iz kompanije.
Prema njihovim riječima, Mythos je pokazao zabrinjavajuće sposobnosti, uključujući mogućnost probijanja vlastitih sigurnosnih ograničenja.
Anthropic je u utorak priopćio da je zaustavio širu objavu svog najnovijeg UI modela, Mythos, zbog bojazni da je previše učinkovit u pronalaženju "ranjivosti visoke razine" u velikim operativnim sustavima i web preglednicima.
"Znatno povećanje sposobnosti modela Claude Mythos Preview navelo nas je da odlučimo kako ga nećemo učiniti opće dostupnim", navodi se u tehničkoj dokumentaciji. "Umjesto toga, koristimo ga u obrambenom programu kibernetičke sigurnosti s ograničenim brojem partnera."
Business Insider piše kako ova odluka predstavlja važan korak za Anthropic, koji je u veljači ublažio vlastita sigurnosna obećanja vezana uz razvoj AI modela. Tada je javno predstavljen Claude Opus 4.6, njihov najmoćniji model dosad.
"Bijeg" od vlastitih programera
U opisu modela Mythos, Anthropic navodi niz zabrinjavajućih nalaza, uključujući slučaj u kojem je model slijedio upute koje su ga potaknule da izađe iz virtualnog sigurnosnog okruženja.
"Model je uspio, pokazavši potencijalno opasnu sposobnost zaobilaženja naših zaštitnih mjera", navodi se u sigurnosnom izvješću. "Nakon toga poduzeo je dodatne, još zabrinjavajuće radnje.”
Istraživač je modelu zadao zadatak da pošalje poruku ako uspije "pobjeći”.
"Istraživač je saznao za uspjeh kada je primio neočekivani e-mail od modela dok je jeo sendvič u parku”, navodi Anthropic.
Model se pritom nije zaustavio na tome.
"U zabrinjavajućem pokušaju da pokaže svoj uspjeh, što nije bilo traženo od njega, objavio je detalje o iskorištavanju ranjivosti na više teško dostupnih, ali javno dostupnih internetskih stranica”, dodaje se.
Napadi bez ljudske intervencije
Anthropic nije otkrio sve detalje o sigurnosnim propustima koje je Mythos pronašao, ali je naveo neke primjere. Model je, primjerice, otkrio 27 godina staru ranjivost u sustavu OpenBSD, poznatom kao jedan od najsigurnijih operativnih sustava na svijetu.
Mythos je toliko moćan da čak i i nestručne osobe mogu iskoristiti njegove sposobnosti.
"Inženjeri bez formalnog sigurnosnog obrazovanja tražili su od Mythosa da pronađe ranjivosti za udaljeno izvršavanje koda tijekom noći, a već sljedeće jutro dobili su potpuno funkcionalan napad", navodi Anthropicov sigurnosni tim.
U nekim slučajevima model je čak mogao pretvoriti ranjivosti u konkretne napade bez ljudske intervencije.
11 odabranih i prijetnja nacionalnoj sigurnosti
Zbog svega toga, Anthropic je odlučio da Mythos neće biti javno dostupan. Umjesto toga, planiraju u budućnosti objaviti "Mythos-klasu" modela tek kad se razviju odgovarajuće sigurnosne mjere.
"Naš je cilj omogućiti sigurno korištenje ovakvih modela u velikom opsegu – ne samo za kibernetičku sigurnost, nego i za brojne druge koristi koje donose ovako napredni sustavi”, navodi tvrtka.
Za sada će pristup Mythosu imati samo 11 odabranih organizacija, uključujući Google, Microsoft, Amazon Web Services, Nvidia i JPMorgan Chase, u okviru projekta nazvanog "Project Glasswing".
Podsjetimo, u ožujku je Anthropic podnio tužbu protiv Pentagona jer ga je stavio na crnu listu nacionalne sigurnosti, čime je eskalirala bitka te tvrtke za razvoj umjetne inteligencije s američkom vojskom oko ograničenja korištenja njihove tehnologije.
Kakvo je tvoje mišljenje o ovome?
Pridruži se raspravi ili pročitaj komentare